Mejora en reconocimiento de habla disártrica con F-TDNN
Descubre cómo el modelo F-TDNN logra un 4.65% de mejora en habla disártrica con características acústicas clave.
Descubre cómo el modelo F-TDNN logra un 4.65% de mejora en habla disártrica con características acústicas clave.
Mejora el reconocimiento de habla disártrica con características espectrales y de tono. Logramos un 4.65% de mejora usando F-TDNN.
La clonación de voz zero-shot reduce la carga de datos y mejora el ASR disártrico hasta un 11.45%. ¡Ideal para investigación!
Aprende cómo la supervisión MOS permite mejorar la evaluación de la gravedad del habla disártrica usando datos de síntesis de voz.